检索结果

Select

1. 基于单词领域特征敏感的多领域神经机器翻译

黄增城, 满志博, 张玉洁, 徐金安, 陈钰枫

北京大学学报自然科学版 2023, 59 (1): 1-10. DOI: 10.13209/j.0479-8023.2022.063

摘要（769）

HTML

PDF（pc）（802KB）（239）

鉴于现有基于单词的领域特征学习方法在领域识别上的精度较低, 为提高领域判别和提供准确的翻译, 提出一种单词级别的领域特征敏感学习机制, 包括两方面: 1) 编码器端的上下文特征编码, 为了扩展单词级别的领域特征学习范围, 引入卷积神经网络, 并行提取不同大小窗口的词串作为单词的上下文特征; 2) 强化的领域特征学习, 设计基于多层感知机的领域判别器模块, 增强从单词上下文特征中获取更准确领域比例的学习能力, 提升单词的领域判别准确率。在多领域UM-Corpus英–汉和OPUS英–法翻译任务中的实验结果显示, 所提方法平均BLEU值分别超过强基线模型0.82和1.06, 单词的领域判别准确率比基线模型分别提升10.07%和18.06%。对实验结果的进一步分析表明, 所提翻译模型性能的提升得益于所提出的单词领域特征敏感的学习机制。

相关文章 | 多维度评价 | 评论（0）

Select

2. 融合小句对齐知识的汉英神经机器翻译

苗国义, 刘明童, 陈钰枫, 徐金安, 张玉洁, 冯文贺

北京大学学报自然科学版 2022, 58 (1): 61-68. DOI: 10.13209/j.0479-8023.2021.111

摘要（584）

HTML

PDF（pc）（729KB）（96）

针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足, 导致复杂句长文本翻译的篇章连贯性不佳的问题, 提出一种融合小句对齐知识的汉英神经机器翻译方法。首先提出手工和自动相结合的标注方案, 构建大规模小句对齐的汉英平行语料库, 为模型训练提供丰富的小句级别的汉英双语对齐知识; 然后设计一种基于小句对齐学习的神经机器翻译模型, 通过融合小句对齐知识, 增强模型学习复杂句内小句间语义结构关系的能力。在WMT17, WMT18和WMT19汉英翻译任务中的实验表明, 所提出的方法可以有效地提升神经机器翻译的性能。进一步的评测分析显示, 所提方法能有效地提高汉英神经机器翻译在复杂句翻译上的篇章连贯性。

相关文章 | 多维度评价 | 评论（0）

Select

3. 引入图像信息的多模态复述生成模型

马超, 万璋, 张玉洁, 徐金安, 陈钰枫

北京大学学报自然科学版 2022, 58 (1): 45-53. DOI: 10.13209/j.0479-8023.2021.110

摘要（630）

HTML

PDF（pc）（15716KB）（68）

在商品描述、新闻评论等多模态场景下, 已有复述生成模型只能围绕文本信息生成复述。为了解决其因无法利用图像信息而导致的语义丢失问题, 提出多模态复述生成模型(multi-modality paraphrase generation model, MPG)来引入图像信息, 并用其生成复述。在MPG中, 为了引入与原句对应的图像信息, 首先根据原句构建抽象场景图, 并将与原句相关联的图像区域特征转换为场景图的结点特征。进一步地, 为了利用构建好的场景图来生成语义一致的复述句, 使用关系图卷积神经网络和基于图的注意力机制对图结点特征进行编码和解码。在评测阶段, 提出句对相似度计算方法, 从MSCOCO数据集中筛选出描述图像中相同物体的句对, 并将其作为复述测试集进行评测。实验结果显示, 所提出的MPG模型生成的复述拥有更好的语义忠实度, 表明在多模态场景下图像信息的引入对提高复述生成质量的有效性。

相关文章 | 多维度评价 | 评论（0）

Select

4. 基于深度学习的实体链接研究综述

李天然, 刘明童, 张玉洁, 徐金安, 陈钰枫

北京大学学报自然科学版 2021, 57 (1): 91-98. DOI: 10.13209/j.0479-8023.2020.077

摘要（1437）

HTML

PDF（pc）（457KB）（473）

介绍实体链接的概念和步骤以及基于深度学习的命名实体链接相关问题和研究现状, 分析实体链接研究中存在的问题及相应的解决模型, 并介绍相关数据集和评测方法。总结国际评测会议中实体链接的现状, 展望未来的研究方向。

相关文章 | 多维度评价 | 评论（0）

Select

5. 无监督的句法可控复述模型用于对抗样本生成

杨二光, 刘明童, 张玉洁, 孟遥, 胡长建, 徐金安, 陈钰枫

北京大学学报自然科学版 2021, 57 (1): 83-90. DOI: 10.13209/j.0479-8023.2020.079

摘要（962）

HTML

PDF（pc）（570KB）（183）

针对使用句法可控的复述生成模型生成对抗样本时模型性能受限于复述平行语料的领域和规模的问题, 提出仅需要单语语料训练的无监督的句法可控复述生成模型, 用以生成对抗样本。采用变分自编码方式学习模型, 首先将句子和句法树分别映射为语义变量和句法变量, 然后基于语义变量和句法变量重构原始句子。在重构过程中, 模型可以在不使用任何平行语料的情况下学习生成句法变化的复述。在无监督复述生成和对抗样本生成任务中的实验结果表明, 所提方法在无监督复述生成任务中取得最佳性能, 在对抗样本生成任务中可以生成有效的对抗样本, 用以改进神经自然语言处理(NLP)模型的鲁棒性和泛化能力。

相关文章 | 多维度评价 | 评论（0）

Select

6. 融合物体空间关系机制的图像摘要生成方法

万璋, 张玉洁, 刘明童, 徐金安, 陈钰枫

北京大学学报自然科学版 2021, 57 (1): 75-82. DOI: 10.13209/j.0479-8023.2020.080

摘要（675）

HTML

PDF（pc）（5984KB）（202）

聚焦于图像中物体间位置关系这一特定信息, 提出一种融合空间关系机制的神经网络图像摘要生成模型, 以期为视觉问答和语音导航等下游任务提供物体方位或轨迹等关键信息。为了增强图像编码器的物体间位置关系学习能力, 通过改进Transformer结构来引入几何注意力机制, 显式地将物体间位置关系融合进物体外观信息中。为了辅助完成面向特定信息的抽取和摘要生成任务, 进一步提出相对位置关系的数据制作方法, 并基于SpatialSense数据集制作物体间位置关系的图像摘要数据集Re-Position。与5个典型模型的对比测评实验结果表明, 所提模型的5个指标在公开测试集COCO上优于其他模型, 全部6个指标在本文制作的Re-Position数据集上优于其他模型。

相关文章 | 多维度评价 | 评论（0）

Select

7. 复述平行语料构建及其应用方法研究

王雅松, 刘明童, 张玉洁, 徐金安, 陈钰枫

北京大学学报自然科学版 2021, 57 (1): 68-74. DOI: 10.13209/j.0479-8023.2020.078

摘要（939）

HTML

PDF（pc）（398KB）（134）

以汉语为研究对象, 提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强, 将英语复述平行语料迁移到汉语中, 同时人工构建汉语复述评测数据集。基于构建的汉语复述数据, 在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性。首先基于复述语料生成复述识别数据集, 预训练基于注意力机制的神经网络句子匹配模型, 训练模型捕获复述信息, 然后将预训练的模型用于自然语言推理任务, 改进其性能。在自然语言推理公开数据集上的评测结果表明, 所构建的复述语料可有效地应用在复述识别任务中, 模型可以学习复述知识。应用在自然语言推理任务中时, 复述知识能有效地提升自然语言推理模型的精度, 从而验证了复述知识对下游语义理解任务的有效性。所提出的复述语料构建方法不依赖语种, 可为其他语言和领域提供更多的训练数据, 生成高质量的复述数据, 改进其他任务的性能。

相关文章 | 多维度评价 | 评论（0）

Select

8. 联合自编码任务的多机制融合复述生成模型

刘明童, 张玉洁, 张姝, 孟遥, 徐金安, 陈钰枫

北京大学学报自然科学版 2020, 56 (1): 53-60. DOI: 10.13209/j.0479-8023.2019.104

摘要（963）

HTML

PDF（pc）（828KB）（171）

基于神经网络编码–解码框架的复述生成模型存在两方面的问题: 1) 生成的复述句中存在实体词不准确、未登录词和词汇重复生成; 2) 复述平行语料的有限规模限制了编码器的语义学习能力。针对第一个问题, 本文提出在解码过程中融合注意力机制、复制机制和覆盖机制的多机制复述生成模型, 利用复制机制从原句复制词语来解决实体词和未登录词生成问题; 利用覆盖机制建模学习注意力机制历史决策信息来规避词汇重复生成。针对第二个问题, 基于多任务学习框架, 提出在复述生成任务中联合自编码任务, 两个任务共享一个编码器, 同时利用平行复述语料和原句子数据, 共同增强复述生成编码器的语义学习能力。在Quora复述数据集上的实验结果表明, 提出的联合自编码的多机制融合复述生成模型有效地解决了复述生成的问题, 并提高了复述句的生成质量。

相关文章 | 多维度评价 | 评论（0）

Select

9. 基于句法结构的神经网络复述识别模型

刘明童, 张玉洁, 徐金安, 陈钰枫

北京大学学报自然科学版 2020, 56 (1): 45-52. DOI: 10.13209/j.0479-8023.2019.092

摘要（1053）

HTML

PDF（pc）（1016KB）（126）

为解决已有复述语义计算方法未考虑句法结构的问题, 提出基于句法结构的神经网络复述识别模型, 设计基于树结构的神经网络模型进行语义组合计算, 使得语义表示从词语级扩展到短语级。进一步地, 提出基于短语级语义表示的句法树对齐机制, 利用跨句子注意力机制提取特征。最后, 设计自注意力机制来增强语义表示, 从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测, 实验结果显示, 复述识别性能得到改进, 达到89.3%的精度, 证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。

相关文章 | 多维度评价 | 评论（0）

Select

10. 融合门控机制的远程监督关系抽取方法

李兴亚, 陈钰枫, 徐金安, 张玉洁

北京大学学报自然科学版 2020, 56 (1): 39-44. DOI: 10.13209/j.0479-8023.2019.101

摘要（1139）

HTML

PDF（pc）（699KB）（163）

提出一种融合门控机制的远程监督关系抽取方法。首先在词级别上自动选择正相关特征, 过滤与关系标签无关的词级别噪声; 然后在门控机制内引入软标签的思想, 弱化硬标签对噪声过滤的影响; 最后结合句子级别的噪声过滤, 提升模型的整体性能。在公开数据集上的实验结果表明, 相对于句子级别噪声过滤方法, 所提方法的性能有显著提高。

相关文章 | 多维度评价 | 评论（0）

Select

11. 融合语态特征的日英层次短语翻译模型

王楠, 徐金安, 明芳, 陈钰枫, 张玉洁

北京大学学报自然科学版 2017, 53 (2): 305-313. DOI: 10.13209/j.0479-8023.2017.036

摘要（914）

HTML （17）

PDF（pc）（580KB）（213）

针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题, 提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态, 然后从英语端对被动和可能语态进一步分类, 抽取双语特征训练最大熵规则分类模型, 将语态特征融合到对数线性模型中以改善翻译模型。提高解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明, 该方法可以有效地改善日英统计机器翻译的句法结构调序和词汇翻译, 提升被动语态和可能语态句子的翻译质量。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

12. 融合词法句法分析联合模型的树到串EBMT方法

王丹丹, 徐金安, 陈钰枫, 张玉洁, 杨晓晖

北京大学学报自然科学版 2017, 53 (2): 295-304. DOI: 10.13209/j.0479-8023.2017.035

摘要（902）

HTML （17）

PDF（pc）（523KB）（240）

针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题, 提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比, 该方法只需进行源语言端的句法结构分析, 可以大大降低构筑系统的复杂度, 有效降低成本。为了提高翻译精度, 引入中文分词、词性标注和依存句法分析联合模型, 可以减少汉英 EBMT 中源语言端基础任务中的错误传递, 提高提取层次间特征的准确性。在此基础上, 结合依存结构的特征和中英语料的特性, 对依存树到串模型进行规则抽取以及泛化处理。实验结果表明, 相对于基线系统, 该方法可以提高实例对抽取质量, 改善泛化规则和译文质量, 提高系统性能。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

13. 基于字形与语音的音译单元对齐方法

刘博佳, 徐金安, 陈钰枫, 张玉洁

北京大学学报（自然科学版） 2016, 52 (1): 75-80. DOI: 10.13209/j.0479-8023.2016.001

摘要（881）

HTML

PDF（pc）（362KB）（886）

为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题, 以汉英音译为主要研究对象, 运用统计与规则的理论思想, 提出融合基于语音和字形的音译单元对齐方法, 设计了4个实验, 与传统方法进行对比。实验结果显示, 该方法能够很好地提高机器音译的准确性。

相关文章 | 多维度评价 | 评论（0）

Select

14. 使用源语言复述知识改善统计机器翻译性能

苏晨,张玉洁,郭振,徐金安

北京大学学报（自然科学版）

摘要（806）

PDF（pc）（448KB）（353）

为了缓解双语语料不足导致的翻译知识欠缺问题, 提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表, 以Lattice表示输入句子的多种复述形式, 扩展解码器使之可以对Lattice形式的输入进行解码, 将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下, 此框架不仅可以增大短语翻译表对源语言现象的覆盖率, 也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明, 在训练语料规模最小的情况下(10 K句对), 系统性能有明显提升(BLEU+1.4%); 在训练语料规模最大的情况下(1 M句对), 系统性能也取得一定提升(BLEU+ 0.32%)。

相关文章 | 多维度评价 | 评论（0）

Select

15. 基于隐主题马尔科夫模型的多特征自动文摘

刘江鸣,徐金安,张玉洁

北京大学学报（自然科学版）

摘要（619）

PDF（pc）（474KB）（447）

基于隐主题马尔科夫模型, 消除LDA主题模型的主题独立假设, 使得文摘生成过程中充分利用文章的结构信息, 并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下, 从单文档扩展到多文档的自动文摘策略, 最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性, 所实现的自动文摘系统ROUGE值有明显提高。

相关文章 | 多维度评价 | 评论（0）

Select

16. 日语时间表达式识别与日汉翻译研究

赵紫玉,徐金安,张玉洁,刘江鸣

北京大学学报（自然科学版）

摘要（1032）

PDF（pc）（482KB）（1203）

基于自定义知识库, 提出一种知识库强化规则集以及与统计模型相结合的日语时间表达式识别方法,旨在不断提高时间表达式的识别精准度。按照Timex2标准对时间表现的细化分类, 结合日语时间词的特点, 渐进地扩展重构日语时间表达式知识库, 实现基于知识库获取的规则集的优化更新。同时, 融合条件随机场CRF统计模型, 提高日语时间表达式识别的泛化能力。通过考察基于短语的翻译模型翻译时间词的精度, 提出统计机器翻译(SMT)结合规则翻译日语时间词的必要性。实验结果显示, 日语时间表达式识别的开放测试F1值达到0.8987, 基于《日汉时间词平行字典》与规则的翻译精度和召回率都略高于基于统计机器翻译模型。

相关文章 | 多维度评价 | 评论（0）

Select

17. 面向专利文献的汉语分词技术研究

岳金媛,徐金安,张玉洁

北京大学学报（自然科学版）

摘要（745）

PDF（pc）（480KB）（551）

针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。

相关文章 | 多维度评价 | 评论（0）